“Big Data is like teenage sex:Everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it too.”
2013年被稱為大數(shù)據(jù)元年,各行各業(yè)都逐漸開啟大數(shù)據(jù)應(yīng)用時代。直至現(xiàn)在,大數(shù)據(jù)依然為人所津津樂道。
何為大數(shù)據(jù)?
1PB夠大嗎?
如果你沒有直觀印象,可以聯(lián)想一下你的電腦硬盤容量,標(biāo)配是500G-1TB,大部分人用了一兩年,可能這部分容量都沒用完。而1PB=1024TB=1048576GB。
在實際中,一個小有名氣的游戲一天的數(shù)據(jù)量就在數(shù)十TB左右,甚至更多。
如果你以為PB單位已經(jīng)是最大了?那就大錯特錯了?。。。?/span>
在PB之上,還有EB(Exabyte 百億億字節(jié) 艾字節(jié)),ZB(Zettabyte 十萬億億字節(jié) 澤字節(jié)),YB(Yottabyte 一億億億字節(jié) 堯字節(jié)),而這些單位也只是為了方便統(tǒng)計海量數(shù)據(jù)所給出的當(dāng)前單位,在未來還可能出現(xiàn)更大的單位。
因特爾公司首席執(zhí)行官Brian Krzanich表示,2020年互聯(lián)網(wǎng)用戶每天將產(chǎn)生1.5GB的數(shù)據(jù)。
HIS數(shù)據(jù)預(yù)測,到2025年,全球互聯(lián)網(wǎng)(IoT)連接設(shè)備的總安裝量預(yù)計將達到754.4億,這部分設(shè)備每天產(chǎn)生的數(shù)據(jù)量可想而知。
按照前面的數(shù)據(jù)關(guān)系,得出1ZB大概是1.1萬億GB,等同于全世界沙子數(shù)量總和。
從上圖中不難看出,互聯(lián)網(wǎng)數(shù)據(jù)每年都在爆炸式增長。當(dāng)然,大數(shù)據(jù)并不只是數(shù)據(jù)量大而已,它還有其他更深的含義。
對于大數(shù)據(jù),麥肯錫全球研究所給出的定義是:
”一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。“
大數(shù)據(jù)具有五大特點,稱為5V。
1. 多樣(Variety)
大數(shù)據(jù)的多樣性是指數(shù)據(jù)的種類和來源是多樣化的,數(shù)據(jù)可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的以及非結(jié)構(gòu)化的,數(shù)據(jù)的呈現(xiàn)形式包括但不僅限于文本,圖像,視頻,HTML頁面等等。
2. 大量(Volume)
大數(shù)據(jù)的大量性是指數(shù)據(jù)量的大小,這個就是上面筆者介紹的內(nèi)容,不再贅述。
3. 高速(Velocity)
大數(shù)據(jù)的高速性是指數(shù)據(jù)增長快速,處理快速,每一天,各行各業(yè)的數(shù)據(jù)都在呈現(xiàn)指數(shù)性爆炸增長。在許多場景下,數(shù)據(jù)都具有時效性,如搜索引擎要在幾秒中內(nèi)呈現(xiàn)出用戶所需數(shù)據(jù)。企業(yè)或系統(tǒng)在面對快速增長的海量數(shù)據(jù)時,必須要高速處理,快速響應(yīng)。
4. 低價值密度(Value)
大數(shù)據(jù)的低價值密度性是指在海量的數(shù)據(jù)源中,真正有價值的數(shù)據(jù)少之又少,許多數(shù)據(jù)可能是錯誤的,是不完整的,是無法利用的。總體而言,有價值的數(shù)據(jù)占據(jù)數(shù)據(jù)總量的密度極低,提煉數(shù)據(jù)好比浪里淘沙。
5. 真實性(Veracity)
大數(shù)據(jù)的真實性是指數(shù)據(jù)的準(zhǔn)確度和可信賴度,代表數(shù)據(jù)的質(zhì)量。
? 更多相關(guān)資訊,敬請關(guān)注。